AWS Glue

../main.png

AWS Glue

a1.png

AWS Glue는 관리형 추출, 변환 및 로드(ETL) 서비스로, 데이터를 준비하고 변환하는 작업을 자동화할 수 있다. Glue는 완전 서버리스 서비스로, 사용자는 데이터 변환에만 집중하고 인프라 관리는 Glue에 맡길 수 있다.

주요 특징

  1. 완전 관리형 서버리스 서비스: 서버를 설정하거나 관리할 필요 없이 ETL 작업을 수행할 수 있다.
  2. 자동화된 데이터 변환: Glue는 데이터를 추출하고 변환하여 원하는 형식으로 로드하는 작업을 자동으로 처리한다.
  3. 다양한 데이터 소스 지원: S3, RDS, Redshift 등 다양한 AWS 데이터 소스와 통합할 수 있다.
  4. 스크립트 생성: Glue는 데이터를 변환하기 위한 스크립트를 자동으로 생성하여 사용자 작업을 간소화한다.

작동 원리

a2.png

  1. 데이터 추출: Glue는 S3 버킷, RDS 데이터베이스 등에서 데이터를 추출한다.
  2. 데이터 변환: 추출된 데이터는 Glue에서 변환 스크립트를 작성하여 원하는 형식으로 변환된다.
  3. 데이터 로드: 변환된 데이터는 Redshift와 같은 대상 데이터베이스에 로드되어 분석할 준비가 된다.

활용 사례

  1. 데이터 준비 및 변환: 데이터를 분석하기 위해 S3에서 데이터를 추출하고 변환하여 Redshift에 로드할 수 있다.
  2. 데이터 통합: 다양한 데이터 소스에서 데이터를 추출하여 하나의 데이터 웨어하우스에 통합할 수 있다.
  3. 데이터 카탈로그 생성: Glue Data Catalog를 사용하여 AWS 인프라 내 데이터셋의 카탈로그를 생성하고 관리할 수 있다.

Glue Data Catalog

AWS Glue Data Catalog는 AWS 인프라 내 데이터셋에 대한 메타데이터를 관리하는 서비스이다. Glue Data Catalog는 데이터셋의 열 이름, 필드 이름, 필드 유형 등의 참조를 제공하며, Athena, Redshift, EMR 등의 서비스와 통합하여 데이터셋을 검색하고 스키마를 구축하는 데 사용된다.

주요 특징

  1. 메타데이터 관리: 데이터셋의 메타데이터를 관리하여 데이터 검색과 스키마 구축을 용이하게 한다.
  2. 자동 스키마 추출: Glue는 데이터를 분석하여 자동으로 스키마를 추출하고 카탈로그에 추가한다.
  3. 다양한 AWS 서비스와 통합: Athena, Redshift, EMR 등 다양한 AWS 서비스와 통합하여 데이터를 관리할 수 있다.

활용 사례

  1. 데이터 검색: Glue Data Catalog를 사용하여 AWS 인프라 내 데이터셋을 쉽게 검색할 수 있다.
  2. 스키마 관리: 자동으로 생성된 스키마를 사용하여 데이터셋을 효율적으로 관리할 수 있다.
  3. 데이터 통합: 다양한 데이터 소스에서 데이터를 통합하여 하나의 카탈로그로 관리할 수 있다.